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摘 要 : [目的 /意义 ] 文 本 向 量化 处 理 是 文本 挖 握 、 信 息 检 索 、 情 感 分 析 等 领域 必须 要 经 过 的 预 处 理 过 程 ,使 节点 向 量 包含 


富 且 有 效 的 语义 及 结构 信息 是 目前 亟待 解决 的 问题 。 [方法 过程 ] 首 先 对 科技 政策 类 的 文本 特征 进行 分 析 , 分 
别 依照 概念 与 概念 闻 关 系 的 分 类 体系 ,用 BiLSTM-CRF 工法 和 SVM 分 别 实现 对 概念 与 概念 关系 进行 自动 标 引 ,在 
特征 工程 同时 融入 基本 特征 和 句法 语义 特征 ,在 识别 准确 性 和 效率 方面 有 显著 提升 。 并 提出 结合 推理 知识 的 概 
念 知 识 网 络 及 进一步 融合 篇 章 结构 的 知识 网 络 构建 方法 。|[ 结果 /结论 ] 基 于 此 知识 网 络 模型 ,实现 一 种 能 够 融合 
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O 〇 文本 信息 向 量化 表示 是 自然 语言 处 理 技术 的 基 
础 、 和 如 何 尽 可 能 地 包含 原本 空间 内 的 信息 是 文本 向 量 
化 那 完 的 重点 。 为 减少 计算 代价 ,数据 降 维 是 文本 表 
未 中 不 可 或 缺 的 一 个 环节 ,有 效 的 数据 降 维 方法 不 仅 
22m 同时 有 助 于 文本 处 理 精度 的 提高 ,而 
网 颖 表示 学 习作 为 一 种 图 肉 入 的 方式 将 文本 节点 表示 
IRAE Kf .稠密 的 向 量 形式 ,使 文本 结构 信息 和 语 
义 售 息 得 到 最 大 限度 地 保留 ,使 得 到 的 向 量 形式 可 以 
在 加 量 空 间 中 具有 表示 以 及 推理 的 能 力 ,同时 可 轻松 
方便 地 作为 机 器 学 习 模 型 的 输入 ,进而 可 将 得 到 的 向 
量 表示 运用 到 常见 的 自然 语言 处 理应 用 中 。 


1 相关 工作 
文本 知识 网 络 中 的 节点 由 各 类 别 实体 构成 , 边 由 


E, 


y= 节点 语义 、 拓 扑 结构 以 及 类 别 标 签 信 息 的 网 络 表 示 学 习 模 型 ,能够 充分 挖掘 并 表示 文本 的 语义 及 结构 信息 ,并 通 
之 ”过 可 视 化 和 实验 验证 所 提 方法 的 有 效 性 。 

[gas perka 关系 提取 ”神经 网 络 表示 学 习 篇 章 结构 

ce 


主题 模型 等 其 他 任务 的 首要 步骤 。 现 有 的 命名 实体 抽 
取 技 术 方 法 主要 有 3 种 ,分 别 为 基于 规则 和 字典 、 基 于 
统计 机 器 学 习 以 及 基于 深度 学 习 。 

基于 规则 的 命名 识别 方法 大 多 需要 借助 于 词典 和 
知识 库 , 即 根据 语言 学 专家 手工 构造 的 规则 模板 ,以 字 
符 串 的 模式 正则 匹配 来 判别 文本 中 的 实体 类 型 。 每 条 
规则 都 有 对 应 权 值 , 当 遇 到 规则 冲突 时 , 权 值 越 高 的 规 
则 优先 级 越 高 。 基 于 规则 的 人 工 常 用 特征 包括 关键 
字 中心 词 或 者 指示 词 等 。 基 于 规则 的 命名 实体 识别 
代表 性 系统 包括 GATE 项 目 中 的 ANNIE 信息 抽取 系 
统 , 此 系统 依赖 手工 规则 建立 命名 实体 库 ,将 每 篇 文章 
严格 按照 实体 抽取 规则 定义 ,实现 整 篇 文章 的 信息 抽 
取 。 通 常 , 当 制 定 规则 足够 全 面 时 ,基于 规则 的 命名 实 
体 抽取 方法 往往 比 其 他 方法 的 性 能 好 。 但 现实 中 , 语 


Fi 


实体 之 间 的 语法 关系 构成 ,因此 文本 知识 网 络 构建 首 
先 需要 进行 实体 抽取 和 实体 关系 识别 。 
1.1 实体 抽取 

命名 实体 识别 技术 是 自然 语言 处 理 领 域 中 重要 的 


研究 任务 之 一 ,是 信息 抽取 、 指 代 消 收 、 问 答 系 统 以 及 


言 现象 千变万化 ,规则 制作 耗 时 巨大 ,规则 之 间 冲 突 繁 
多 ,所 以 人 工 制定 规则 的 可 行 性 低 ,并 且 该 方法 需要 大 
量 的 领域 知识 和 词典 为 基础 ,系统 移植 性 较 差 。 

随 着 机 器 学 习 在 自然 语言 处 理 领 域 的 兴起 ,命名 
实体 识别 任务 也 逐渐 转向 基于 统计 的 机 器 学 习 方 法 。 
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该 方法 通常 将 命名 实体 识别 任务 看 作 分 类 问题 来 处 
理 , 具 有 两 种 思路 :第 一 种 是 先 识别 出 文本 中 所 有 的 命 
名 实体 的 边界 ,然后 再 对 实体 进行 分 类 上 0 。 例 如 M. 
Collins 等 中 提出 的 CoBoost 方法 ,训练 了 上 下 文 和 拼写 
两 个 分 类 器 ,再 基于 AdaBoost 整合 到 一 个 适用 于 无 监 
督学 习 的 分 类 器 。 该 分 类 器 在 识别 人 名 、 地 名 和 机 构 
名 3 类 实体 的 准确 率 超 过 了 91% 。 另 一 种 是 序列 化 标 
注 , 即 将 文中 每 个 词 分 配 多 个 候选 的 类 别 标签 ,这 些 类 
别 标 签 对 应 于 命名 实体 所 处 的 位 置 ,如 IOB 系列 标签 
格式 ,最 后 通过 分 类 器 来 识别 命名 实体 。 经 典 的 机 器 
学 习 方 法 主要 包含 HMM (Hidden Markov Model)? 、 
ME ( Maximum Entropy ) * , SVM ( Support. Vector Ma- 
chine) "^ 和 CRF( Conditional Random Field ) * 等 模型 , 
fige 4 种 方法 中 ,ME 模型 具有 较 好 的 通用 性 ,但 是 由 
于 鳄 要 明 一 化 处 理 , 计 算 成 本 比较 大 。 而 CRF 提供 了 
下 介 特征 灵活 ,全 局 最 优 的 标注 框架 ,但 是 该 框架 收敛 
束 妓 较 慢 , 训 练 数据 的 时 间 较 长 。 通 常 ,ME 和 SVM 比 
HAMA 准确 率 要 高 ,但 是 由 于 HMM 采用 维特 比 算法 ， 
拟 以 训练 速度 比较 快 。HMM 更 适用 于 一 些 对 实时 性 
大 要 求 的 应 用 ,如 短文 本 命名 实体 识别 。 

和 2011 4£,R. Collobert " 提出 了 采用 神经 网 络 搭建 
人 名 实体 识别 模型 ,深度 学 习 方法 不 同 于 机 器 学 习 , 无 
需 税 建 繁 琐 的 特征 工程 ,所 以 一 直 很 受 欢迎 。 现 有 的 
神经 网 络 模型 可 以 根据 输入 颗粒 度 不 同 分 为 基于 词汇 
统 委 于 句子 级 以 及 基于 词汇 和 句子 级 的 神经 网 络 模 


为 目前 基于 深度 学 习 的 NER 方法 中 最 主流 模型 。 总 
体 来 说 ,基于 深度 学 习 的 方法 无 需 繁杂 的 特征 工程 , 即 
使 用 词 向 量 以 及 字符 向 量 就 可 以 达到 很 好 的 效果 ,如 
果 在 模型 中 加 入 高 质量 的 词典 特征 ,性 能 将 会 进一步 
提高 。 最 新 的 命名 实体 识别 技术 则 在 此 基础 上 引入 在 
基于 神经 网 络 的 结构 上 加 入 注意 力 机 制 与 、 图 神经 网 
络 XERESE OI UM . 远 监督 学 习 等 技术 。 
1.2 关系 抽取 
关系 抽取 主要 包含 两 个 子 任务 :一 个 是 检测 出 句 
子 中 是 否 包含 实体 对 , 另 一 个 是 判断 实体 对 之 间 的 关 
系 。 基 于 机 器 学 习 的 关系 抽取 方法 根据 人 工 参 与 度 主 
要 分 为 有 监督 . 半 监 督 和 无 监督 3 种 方法 。 有 监督 的 
机 器 学 习 方法 可 以 分 为 基于 特征 向 量 的 方法 与 基于 核 
函数 的 方法 ,其 中 ,基于 特征 向 量 的 方法 将 关系 抽取 看 
作 二 元 分 类 问题 ,使 用 人 工 标注 语 料 获取 正 例 和 反例 ， 
通过 词法 分 析 句法 分 析 、 语 义 分 析 得 到 特征 集合 , 选 
合适 的 分 类 器 训练 分 类 模型 。 常 用 的 分 类 模型 有 传 
统 机 器 学 习 模型 ,如 条 件 随 机 场 c5 16] CURAE 
分 类 器 ,还 有 近 几 年 比较 流行 的 深度 学 习 模型 ,如 浅 层 
神经 网 络 和 卷 积 神经 网 络 。 传 统 的 机 器 学 习 模 型 需要 
人 工 花费 大 量 时 间 设 计 和 选取 特征 ,而 深度 学 习 方法 
采用 端 对 端的 思想 ,只 需要 预 训练 的 词 向 量 , 人 工 干 预 
半 监 督 的 机 器 学 习 方 法 主要 采用 Bootstraping 思 
路 解决 关系 抽取 任务 问题 , 即 首先 人 工 构造 一 批 关系 


型 之 在 基于 词汇 级 的 模型 中 ,将 句子 中 每 个 词 的 词 向 
BERMA. R. Collobert 将 词 向 量 输入 到 CNN 
* CRF 模型 中 ,在 CoNLL2003 数据 集中 FL 值 达到 了 
89.5995, Z. Huang 等 所 在 2015 年 提出 了 LSTM + 
CRF 模型 ,同样 使 用 词 向 量 作为 输入 ,在 CoNLL2003 
数据 集 Fl 值 达到 了 85. 19% 。 基 于 句子 级 的 神经 网 络 
模型 ,即将 整个 句子 表示 输入 到 模型 中 ,并 加 入 句子 中 
的 位 置 特征 来 区 分 每 一 个 字符 。T. H. Pham fI P. Le- 
Hong ^ | 采用 将 句子 级 表示 输入 到 Bi-LSTM + softmax f 
型 中 ,在 越南 语 的 命名 实体 识别 中 实现 了 80.2396 FI 
值 的 效果 。 基 于 词汇 和 句子 级 的 方法 中 ,输入 为 词 向 
量 和 单词 字符 卷 积 的 组 合 。X. Ma fI E. Hovy 
输入 到 Bi-LSTM + softmax 模型 中 ,在 CoNLL2003 数据 
集中 Fl 值 达到 了 91.21% 。 根据 实 验 结果 ,NN( Neural 
Networks) 和 CNN ( Convolutional Neural Networks ) 得 出 
的 结果 效果 基本 一 致 ,但 是 加 入 CRF 的 句子 级 别 效果 
上 有 明显 提高 。 由 于 Bi-LSTM 使 编码 结果 能 捕获 序列 
信息 ,效果 能 够 超过 了 基于 丰富 特征 的 CRF 模型 ,成 


实例 作为 初始 样本 种 子 , 然 后 利用 模式 训练 或 者 模式 
学 习 的 方法 ,总 结 出 相应 的 规则 ,用 于 发 现 新 的 关系 实 
例 集合 ,直到 得 到 较 大 规模 的 关系 实例 。DIPRE ( Dual 
Iterative Parttern Relation Expansion ) 5 系统 构建 了 作 
者 和 书籍 的 关系 ,该 系统 利用 少量 实体 关系 对 作为 种 
子 集合 ,然后 获取 到 同时 含有 这 两 个 实体 的 文档 或 者 
句子 ,将 其 作为 标注 样本 ,并 根据 标注 样本 建立 并 调整 
模式 ,最 后 利用 该 模式 标注 新 的 数据 ,并 把 新 标注 的 数 
据 加 入 到 种 子 集合 中 ,这 样 不 断 迭 代 , 直到 满足 某 种 设 
定 条 件 。 

基于 无 监督 的 关系 抽取 方法 大 多 采用 模式 聚 类 的 
方法 。T，Hasegawa 等 “首次 提出 无 监督 关系 抽取 方 
法 ,对 包含 命名 识别 实体 对 的 文本 进行 聚 类 ,把 聚 类 集 
合 中 词 频 最 高 的 词 作为 关系 描述 词 ,该 方法 在 大 规模 
的 新 闻 领 域 语 料 上 证 明 效 果 较 好 。M. Piasecki ”在 此 
基础 上 引入 了 WordNet 语义 词典 来 提高 关系 抽取 模板 
聚 类 的 相似 度 计算 过 程 。 无 监督 的 关系 抽取 方法 一 般 
需要 一 个 大 规模 的 语料库 来 挖掘 实体 对 的 关系 模式 集 
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合 , 但 是 该 方法 难以 获取 置信 度 高 的 关系 模式 ,而 且 难 
以 描述 关系 名 称 。 不 同 隐藏 神经 元 的 设置 能 够 使 
LSTM 有 效 避 免 RNN(Recurrent Neural Network ) 梯度 消 
失 , 从 而 解决 了 长 期 依赖 的 问题 。 但 是 单 向 LSTM 只 
能 保留 历史 信息 ,无 法 利用 未 来 时 刻 的 信息 ,但 未 来 信 
息 往 往 对 现在 时 刻 的 信息 有 重要 的 影响 。 笔 者 采用 双 
向 长 短 时 期 神经 网 络 (Bidirectional Long Short-term 
Memory , BI-LSTM ) ,该 模型 包含 两 个 LSTM 层 , 分 别 为 
能 够 保留 历史 信息 的 前 向 序列 和 获取 未 来 信息 的 后 向 
序列 ,这 两 层 LSTM 将 不 同时 间 的 信息 传递 给 输出 层 。 
这 样 ,Bi-LSTM 不 仅 能 够 解决 长 期 依赖 问题 ,还 能 够 获 
取 上 下 文 信息 来 处 理 序 列 标注 问题 。 
1.3 网 络 表示 学 习 

这 网 络 表示 学 习 又 称 图 表示 学 习 , 其 应 用 领域 也 相 
当 访 泛 ,如 节点 分 类 ,节点 聚 类 链接 预测 .社区 发 现 和 
推荐 系统 等 。 基 于 网 络 结构 的 网 络 表示 学 习 主 要 有 和 矩 
阵 蔷 征 向 量 方法 矩阵 分 解 方法 和 神经 网 络 方法 。B. 
perayzi 等 "提出 DeepWalk 算法 ,他 们 通过 实验 验证 
Jeden 的 随机 游 走 序 列 和 文档 中 的 单词 一 样 都 遵循 指 
灼 时 律 , 从 而 将 词 向 量 表示 方法 Word2vec'” 应 用 在 网 
纶 站 点 的 随机 游 走 序 列 中 。DeepWalk 算法 同样 采用 
sKipsgram 模型 对 随机 游 走 序列 中 每 个 局 部 窗口 的 节 
丰 泛 行 概率 建 模 ,并 最 大 化 随机 游 走 似 然 概率 来 训练 


用 共 斩 梯度 下 降 方 法 来 更 新 模型 参数 。 一 些 研究 者 还 
提出 了 Trans 系列 将 知识 图 谱 中 节点 间 的 推理 结构 信 
息 考 虑 到 网 络 表 示 学 习 中 ,例如 C. Tu 等 ”提出 的 
TransNet 模型 通过 自 编码 器 将 TransE 关系 推理 模 
型 3 与 网 络 拓扑 结构 表示 相 结 合 , 在 社会 关系 抽取 任 
务 上 效果 显著 。 网 络 表示 学 习 虽 然 已 经 取得 了 丰富 的 
成 果 , 但 是 仍然 面临 巨大 挑战 ,例如 如 何 真 正 克服 大 规 
模 上 亿 级 的 网 络 节点 表示 中 遇 到 的 存储 、 训 练 效率 以 
及 外 部 信息 融合 的 问题 等 。 

笔者 通过 科技 政策 文本 概念 关系 标 引 , 进行 科技 
知识 网 络 构 建 和 网 络 表示 学 习 , 能 为 简报 生成 .机 器 翻 
译 .问答 系统 等 自然 语言 处 理 研究 提供 高 质量 的 向 量 
化 语 料 信息 。 


2 文本 知识 网 络 构 建 模 型 


文本 知识 网 络 算法 模型 整体 架构 如 图 1 所 示 。 首 
先 对 科技 政策 文本 进行 概念 与 关系 标 引 。 采 用 BiL- 
STM-CRF 深度 学 习 模 型 进行 概念 标 引 ,再 将 概念 实体 
对 的 关系 特征 作为 基于 SVM 主动 学 习 分 类 器 的 输入 ， 
为 没有 标签 的 概念 实体 对 进行 关系 标签 预测 。 最 后 能 
够 得 到 每 篇 科技 政策 文本 中 的 每 个 句子 中 的 概念 和 概 
念 间 的 关系 ,以 json 格式 存储 。 

然后 通过 概念 关系 分 别 构建 科技 政策 知识 网 络 以 


模 至 参数 ""。 这 种 方法 只 依赖 于 随机 游 走 的 局 部 信 
慷 稚 而 解决 了 矩阵 特征 向 量 方法 中 需要 把 整个 邻接 
矩 禾 存储 在 内 存 中 的 高 计算 时 间 和 空间 问题 。 
Nodevec 算法 同样 进一步 扩展 了 DeepWalk 随机 游 
走 本 式 ,通过 引入 两 个 参数 p 和 q, 将 深度 优先 和 广度 
优先 引入 到 随机 游 走 策略 中 ,从 而 反应 了 不 同 层面 的 
节点 之 间 的 关系 。 与 浅 层 神经 网 络 不 同 的 是 ,深层 的 
神经 网 络 模型 能 够 对 节点 间 的 非 线性 表示 进行 建 模 。 
例如 SDNE ( Structural Deep Network Embedding ) " 采 
用 laplace 矩阵 对 节点 的 一 级 相似 度 建 模 ,然后 采用 无 
监督 的 深层 自 编 码 器 对 二 级 相似 度 建 模 ,最 终 将 自 纺 
码 器 的 中 间 表示 作为 节点 表示 。 在 现实 情景 中 ,网 络 
节点 往往 包含 丰富 的 外 部 信息 ,例如 在 社交 网 络 中 , 除 
了 用 户 的 好 友 关系 ,每 个 用 户 还 含有 丰富 的 文本 信息 ， 
如 博文 等 。 传 统 的 网 络 表示 学 习 方法 主要 是 刻画 网 络 
节点 的 拓扑 结构 信息 ,而 节点 的 外 部 信息 能 够 对 拓扑 
结构 信息 进行 补充 , 从 而 提高 网 络 表示 的 质量 。 
TADW ( Text-Associated DeepWalk ) £ 1 P" 将 文本 内 容 
PESA BUR GRUR AI rh AETATEM I OE 
系 矩 阵 分 解 为 文本 特征 向 量 和 两 个 参数 矩阵 ,最 后 采 


及 带 篇 章 结构 的 知识 网 络 。 基 于 知识 网 络 模型 ,笔者 
采用 网 络 表 示 学 习 技 术 对 知识 网 络 中 的 节点 进行 表 
示 。 其 中 知识 网 络 中 的 概念 表示 ,笔者 首先 采用 融合 
节点 语义 拓扑 结构 以 及 标签 信息 的 网 络 表示 模型 ,并 
在 此 基础 上 提出 结合 知识 推理 模型 的 网 络 表 示 学 习 模 
型 改进 方法 。 对 于 章节 节点 表示 ,笔者 提出 了 基于 
Doc2vec 的 篇 章节 点 表示 方法 。 
2.1 概念 关系 标 引 模型 

实体 抽取 任务 的 核心 任务 是 命名 实体 识别 , 即 抽 
取 文 本 中 所 提 到 的 人 名 、 地 名 、 组 织 .技术 等 。 实 体 关 
系 抽取 即 从 含有 实体 对 的 句子 中 抽取 出 实体 对 的 语义 
关系 ,关系 抽取 技术 在 自然 语言 理解 .信息 检索 和 知识 
图 谱 自 动 构建 等 领域 具有 重要 的 意义 ,能 从 大 规模 的 
无 结构 自然 语言 文本 中 抽取 出 结构 化 数据 ,从 而 提高 
言 息 处 理 效 率 。 
2.1.1 基于 BiLSTM-CREF 概念 标 引 

为 了 解决 传统 文本 分 析 方 法 在 科技 政策 文本 上 的 
局 限 性 ,BiLSTM ( Bidirectional Long Short-term Memory ) 
通过 上 下 文 特征 信息 可 以 有 效 地 得 到 输出 序列 ,但 是 
无 法 表现 出 序列 标注 问题 中 输出 标签 的 强 依 赖 关 系 ， 
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科技 政策 文本 


i 


半 技 知识 网 络 构建 及 网 络 表示 学 习 研 究 


概念 节点 网 络 | 
表示 向 量 表 


4.00437v1 


在 引文 的 概念 抽取 任务 中 ,在 BiLSTM 神经 网 络 最 后 
-5 届 添 加 了 用 以 处 理 序列 标注 的 CRF 模型 ,有 效 地 解 
关节 问题。 首先 系统 地 对 科技 政策 文本 中 的 概念 进 
得 浏 别 分 析 。 狭 义 上 ,命名 实体 识别 是 识别 出 人 各、 地 
名 条 组 织 机 构 名 这 3 类 命名 实体 。 但 是 在 科技 政策 文 
四 本, 涉及 的 命名 实体 更 加 广泛 。 

四 首先 对 科技 简报 文本 中 的 概念 进行 分 类 ,采用 梳 
念 谓 典 .规则 提取 ,并 辅 以 人 工 标注 的 方法 对 文本 中 的 
签 进 行 初步 标 引 。 当 词汇 积累 到 一 定 程度 时 分 析 总 
结 出 以 下 科技 简报 概念 词 的 分 类 体系 (如 果菜 一 概念 
属于 多 个 分 类 , 则 选择 频次 最 高 的 分 类 ) : DOrganiza- 
tion : 即 组 织 名 称 ;@)Location: 通 常 包 含 国 家 名 、 地 名 
等 ,也 可 包含 技术 强国 等 概括 性 的 术语 , 如“ 金 砖 国 
家 ”;@Policy: 即 颁发 的 科技 政策 ;@Money: 即 政策 或 
者 技术 涉及 到 的 基金 .投资 以 及 资金 ;G)Technology: 通 
常 为 技术 术语 ;@Field: 即 领域 界定 ;COEnergy: 通 常 为 
能 源 类 词汇 ;@Facility : 即 各 类 设备 ;@People: 即 人 的 
总 称 或 者 特 称 ; 40System: 即 系统 、 体 系 或 者 平台 ;@@g 
Element :与 其 他 类 别 词汇 具有 包含 关系 的 对 象 ;DAr 
tribute :描述 某 一 科技 领域 的 特点 ;3Service: 即 国家 政 
策 提 供 的 服务 ;@@Product: 即 对 产品 的 描述 ;@@ Project: 
即 提出 的 项 目 .方法 或 者 方案 。 
笔者 采用 双向 长 短 时 期 神经 网 络 ( BiLSTM ) ,该 模 
型 包含 两 个 LSTM 层 ,分 别 为 能 够 保留 历史 信息 的 前 
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科技 政策 文本 概念 关系 标 引 


基于 主动 学 习 的 
SVM 关系 分 类 


融入 知识 推理 的 网 络 
学 习 表 示 模 型 


向 序列 和 获取 未 来 信息 的 后 向 序列 ,两 层 LSTM 将 不 
同时 间 的 信息 传递 给 输出 层 。 这 样 ,BiLSTM 不 仅 能 够 
解决 长 期 依赖 问题 ,还 能 够 获取 上 下 文 信息 来 处 理 序 
列 标注 问题 。 但 BiLSTM 存在 的 问题 是 无 法 表现 出 序 
列 标注 问题 中 输出 标签 的 强 依赖 关系 。 笔 者 将 中 文 文 
字 以 字符 单元 进行 拆 分 作为 BILSTM 神经 网 络 模型 的 
输入 ,并 且 采 用 IOB 标注 方法 区 分 出 每 个 句子 中 概念 
词 的 边界 。 其 中 “B ”标签 代表 概念 中 的 第 一 个 字 ， 
“也 标签 代表 概念 内 部 的 其 他 部 分 ，0 7” 标签 用 于 概念 
词汇 以 外 的 字符 标示 。 在 本 文 的 概念 抽取 任务 中 ,在 
BiLSTM 神经 网 络 最 后 一 层 添 加 了 用 以 处 理 序 列 标注 
的 CRF 模型 ,有 效 解决 了 这 一 问题 。 

BiLSTM 输出 的 序列 特征 是 字 向 量 与 上 下 文 语义 
特征 的 结合 ,采用 Softmax 函数 将 隐 层 输出 映射 到 标签 
集 的 概率 分 布 向 量 , 得 到 每 个 字符 对 应 标签 的 概率 分 
布 矩 阵 。 最 后 ,使 用 CRF 层 ,将 概率 分 布 矩 阵 在 所 有 
有 效 的 标签 序列 空间 中 确定 一 个 概率 最 高 的 序列 路 
径 ,对 应 到 每 个 字符 作为 最 后 标签 。BiLSTM-CRF 模型 
结构 见 图 2。 

2.1.2 基于 SVM 主动 学 习 关系 标 引 

关系 标 引 的 主要 任务 是 从 句子 中 自动 抽取 概念 间 
的 关系 ,是 知识 结构 化 的 关键 技术 之 一 。 笔 者 将 关系 
抽取 任务 转化 为 分 类 任务 ,根据 文本 内 容 特 征 建立 关 
系 分 类 体系 。 首 先 使 用 词法 和 句法 分 析 工 具 对 部 分 语 
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料 进 行 处 理 , 然 后 抽取 出 概念 间 的 相关 特征 作为 SVM 
分 类 器 的 输入 ,最 后 采用 主动 学 习 的 方法 对 未 标注 概 
您 以 系 对 进行 关系 标 引 。 关 系 标 引 的 整体 框架 如 图 3 


图 3 关系 标 引 模型 


笔者 所 研究 的 语 料 概 念 及 其 关系 都 具有 多 样 性 。 
由 于 概念 多 为 名 词 ,常常 出 现 于 主语 和 宾语 ,或 者 是 从 
句 的 主语 和 宾语 中 ,所 以 本 研究 中 的 关系 主要 是 对 链 
接 概念 的 核心 谓语 进行 分 析 , 即 主要 分 析 包 含 “ 主 语 + 
谓语 + 宾语 ”或 者 “主语 + 谓语 + 从 句 ( 主 + 谓 + 宾 )” 
句 式 结构 的 句子 。 首 先 对 关系 的 种 类 进行 预 设 , 主 要 
分 为 5 X, EA : CO Forward :推进 关系 ;@)Mixation : 融 


图 2 BiLSTM-CRF 模型 结构 


合 关系 ;@) Backward :阻碍 关系 ;Inclusion :包含 关系 ; 
(B)Likehood: 同 义 关系 。 

笔者 对 关系 分 类 采用 了 主动 学 习 的 方法 ,首先 根 
据 先 验 知识 从 候选 样本 中 选取 少量 的 样本 进行 类 别 标 
注 ,构造 初始 训练 样本 来 训练 分 类 器 。 特 征 主要 包括 
基本 特征 和 句法 语义 特征 两 类 ,其 中 基本 特征 主要 从 
词法 分 析 得 出 ,目前 研究 者 们 已 经 验证 了 这 些 特征 的 
有 效 性 ” 。 笔 者 选取 的 实体 关系 基本 特征 有 : 

概念 类 别 。 即 为 2.1.1 中 定义 的 15 个 概念 类 别 ， 
两 个 概念 类 别 的 结合 用 ”- ”字符 进行 连接 ; 

概念 相 邻 词 。 即 获取 两 个 概念 词 前 面 的 词 和 后 面 
的 词 ,如 果 前 后 没有 词 , 用 “ None” 来 表示 ; 

概念 间 词 的 词性 标注 。 即 从 一 个 概念 到 另 一 个 概 
念 中 间 所 有 词 的 词性 标注 ; 

两 概念 间 的 上 下 文 环境 。 包 括 两 个 概念 词 之 间 的 
所 有 词 。 

除了 基础 特征 ,笔者 还 综合 考虑 了 句法 语义 特征 ， 
包括 依存 句法 分 析 和 语义 角色 分 析 。 其 中 ,依存 结构 
是 句法 分 析 其 中 重要 的 一 方面 , 即 通 过 句子 中 各 语言 
单元 的 组 成 成 分 揭示 成 分 之 间 的 依存 关系 ,其 中 核心 
谓语 本 身 不 受 任何 成 分 支配 ,而 且 能 够 支配 其 它 成 分 
的 核心 成 分 。 由 于 概念 短语 是 依存 结构 成 分 的 一 部 
分 ,那么 成 分 之 间 的 依存 关系 就 能 够 反映 出 概念 之 间 
的 关系 。 如 图 4 是 “纳米 技术 强国 纷纷 推进 纳米 技术 
与 信息 技术 战略 性 新 兴 领 域 的 融合 。” 的 依存 句法 分 析 
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结构 ,其 中 “ATT” 是 定 中 关系 ，ADV 是 状 中 结构 ， | 谓 关系 ，LAD"” 是 左 附加 关系 ，RAD "是 右 附加 关系 ， 
“HED” 是 核心 关系 “C00” 是 并 列 关 系 ,“SBV"” 是 主 | “VOB" 是 动 宾 关 系 ,“WP” 是 标点。 


AR 


Root 纷纷 推进 纳米 技术 与 术 战略 性 新 兴 领域 


n n n d v n P n n b n u v wp 
4 依存 句法 分 析 示 


语义 角色 标注 是 一 种 浅 层 的 语义 分 析 技 术 , 以 名 角色 标注 结果 如 图 5 所 示 。 语 义 角 色 标 注 的 结果 主要 
子 的 谓语 为 中 心 ,分 析 各 成 分 与 谓语 之 间 的 关系 ,是 自 包含 3 个 部 分 ,其 中 A0 为 施 事 部 分 , Al 为 受 事 部 分 ， 
然 语 言 理解 任务 中 的 一 个 重要 中 间 步 又 。 a ADV 是 附加 标记 ,语义 角色 标注 能 够 在 一 定 程度 上 反 


知识 经 济 部 专门 出 台 《 纳 米 融 合 推广 战略 》”, 其 i 映 了 概念 之 间 存 在 的 语义 关系 。 

T 韩国 知识 经 济 部 专门 出 台 ( 纳米 融合 推广 战略 》 
I ns n n d T wp n v v n wp 
e» A0 ADV 出 台 Al 

er 

e 图 5 语义 角色 示意 

e 


2 vl ES jab 进 纳米 技术 与 信息 X2 主动 学 习 算法 流程 
RU o” 中 “纳米 技术 强国 ”和 。 主动 学 习 算法 的 训练 过 程 定义 如 下 : 
RHR” gn i 用 LTP 自然 语言 处 理工 输入 :初始 分 类 器 未 带 标注 的 候选 集 T\ 从 候选 样本 中 采样 个 数 n .采样 策 


So 网 Ws. 
其 "展示 本 文 将 提取 的 相关 特征 。 该 句 分 词 结果 为 “ 纳 1 从 候选 样本 集 T, 中 选取 1 个 样本 并 标注 类 别 ,来 构造 初始 样本 集 1 


强国 纷纷 推进 纳米 技术 与 信息 技术 战略 性 f$ To -T,- Jo 操作 。 
; 2 " = :进行 第 i 次 采样 ,在 样本 集 1;_1 寻 找 最 优 分 类 超 平面 /;, 从 样本 集 7;_ 
x iiti 的 而 EAE L 0 1 : 2: 进 行 DOR i-1 i i-1 
MZOE 的 融合。 特征 提取 的 结果 如 表 1 所 示 中 最 符合 采样 策略 的 n 个 样本 组 成 集合 , 记 作 Bio 
表 1 关系 特征 示例 3: 标 注 B, 样本 类 别 。 
ginti 概念 类 别 [ Nation, Technology, Nation- Technology | Adi l;z 1; 4U Bi,Ti= T,- lio 
= MEHA [None ,纷纷 ,推进 ,与 ] Bis B e . 
概念 间 词 的 词性 标注 Ld, v] DU 
MREERHSE FX [纷纷 ,推进 ] 个 样本 ;MS 是 选择 两 个 最 高 类 概率 但 是 差异 性 最 小 的 


< 存 句 法 分 让 3:SBV,3:VOB,10:ADV] (两 个 概念 的 依存 句法 路 径 ) " s T ` 
TER E E k 个 样本 ;RS 是 随机 选取 个 样本 。 从 图 6 中 可 以 看 
语义 角色 标注 —([ "MESE" AO. “HEE AT ] (两 个 概念 的 语义 角色 以 及 围绕 


的 谓语 词 ) 出 ,MS 的 效果 最 好 。 
2.2 知识 网 络 构建 及 网 络 表示 模型 
WA 从 文献 [25 ] 
可 知 知识 网 络 是 一 个 集合 ,是 指 知识 ,信息 以 及 知识 间 
的 关系 的 一 类 网 络 。 其 中 ， 知识 网 络 的 节 点 代表 知识 
存储 单位 ,根据 粒度 不 同 ,可 以 分 为 书刊 ,论文 .专利 、 
文章 片段 或 者 词 。 边 表示 知识 单元 之 间 的 联系 ,例如 
在 引证 网 络 、 词 网 络 是 引证 关系 、 在 共 现 网 络 是 共 现 关 
系 。 


支持 向 量 机 (Support Vector Machine，SVM ) 是 一 
种 处 理 分 类 和 回归 问题 的 机 器 学 习 算 法 模型 ,其 主要 
思想 是 基于 结构 风险 最 小 化 原则 ,将 训练 数据 集 压 缩 
到 文 持 向 量 集合 ,从 而 学 习 到 分 类 器 

用 SVM 实现 主动 学 习 的 具体 算法 见 表 2。 

主动 学 习 的 关键 是 是 采样 策略 ,如 何 选择 采样 策 
略 能 够 影响 整个 分 类 器 的 性 能 。 为 了 找到 合适 的 采样 
策略 ,在 标注 初期 ,笔者 使 用 训练 数据 集中 的 标注 数据 
模拟 人 工 标注 来 对 LC ( Least. Confidence ) , MS ( Margin 
Selection) ) 和 RS( Random Select) 三 种 采样 策略 进行 了 
性 能 评估 。 其 中 ,LC 采样 策略 是 选取 置信 和 度 最 小 的 


本 文 所 提取 的 概念 与 概念 之 间 的 关系 同样 能 够 构 
成 上 述 定义 的 知识 网 络 , 其 中 知识 网 络 的 节点 是 概念 
词汇 ,知识 网 络 的 边 是 概念 词汇 间 的 语义 关系 。 根 据 
以 上 定义 ,将 知识 网 络 表示 为 G= (V,E,D,L) ,其 中 了 
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图 6 不 同 主动 学 习 采 样 策略 


vy| 表示 节点 , 即 各 个 概念 
FIESTA RN MRAZ RIED | 

[ew 表示 每 个 节点 的 文本 信息 。L um 
有 和 关 系 标 和 的 集合 ,其 中 忆 表示 概念 节点 的 类 别 
HOS T 1, 表示 概念 问 关系 的 关 别 标签 

2; G2 结 A 合 推理 知识 的 TriDNR —À 

也 网 络 表示 学 习 的 核心 思想 是 学 习 网 络 中 节点 的 低 
编 昌 潜在 表示 。“ 潜 在 表示 "的 对 象 是 网 络 中 的 节点 ， 
VARRTA E FCR 寺 征 .社区 信息 的 网 络 拓扑 
4. THDNR 网 络 表示 学 习 模型 "通过 DeepWalk 算 
法 获取 网 络 节 点 之 间 的 拓扑 吉 构 表示 ,其 框架 如 图 7 
BE. 考虑 输入 的 网 络 包含 节点 集 V ,节点 vl .v2 .v3、 
ey 各 关联 一 个 单词 集 W, ER w2 、w3 w5 分 别 是 一 
个 紧 度 为 2 .3 .5 的 词 序列 ,同时 一 些 节点 存在 不 同 的 
标 茎 属性 集 C ,其 中 cl 为 节点 v1 的 类 别 标签 ,模型 同 
时 学 习 节 点 之 间 的 关系 ,节点 与 单词 的 关系 以 及 标签 
与 单词 的 关系 。TriDNR 模型 如 图 7 所 示 : 


= {v1 ,9,,° S7 (Vi,V)) € 


节点 间 建 


input hidden output 


节点 与 内 容 和 内 容 与 标签 的 建 模 


图 7 TriDNR 模型 


模型 由 两 层 skip-gram 神经 网 络 模 型 组 成 ,上 层 为 


节点 的 拓扑 结构 信息 建 模 , 下 层 为 文本 内 容 和 文本 标 
签 建 模 。skip-gram 神经 网 络 模型 可 以 得 到 每 个 节点 的 
表示 ,如同 词 向 量 的 表示 ,Deepwalk 不 同 于 传统 的 网 络 
表示 , 它 采 用 了 随机 游 走 方法 ,而 不 是 邻接 矩阵 ,解决 
了 邻接 和 矩阵 所 面临 的 高 计算 空间 和 时 间 的 问题 。 上 层 
结构 采用 Deepwalk 算法 将 随机 游 走 策略 映射 到 每 个 
该 表示 经 过 随机 排序 后 传人 下 层 结构 。 
结构 的 目标 函数 为 : 

L= X5, log P (w ,:w,| cj) + X5 log P (w: 
X) 

从 这 个 公式 可 以 看 出 ,节点 内 容 和 节点 标签 类 似 
于 Doc2vec 算法 ,所 以 总 体 来 说 ,笔者 通过 Deepwalk 算 
法 和 Doc2vec 算法 将 节点 拓扑 结构 、 节 点 标签 和 节点 
内 容 3 个 方面 的 信息 结合 起 来 。 整 体 模型 的 目标 函数 
是 求 式 (2) 的 最 大 似 然 估计 。 

L=(1 -a) Eia Ès ,007 logP (o, 
aD X cua logP (w, |v) + X5 X aua logP(w, | 
ci) XQ) 

式 中 ,a 是 平衡 节点 拓扑 结构 ,节点 文本 内 容 和 节 
点 标签 信息 的 权重 ,b 是 窗口 。 其 中 第 一 个 子 式 是 计 
算 给 定 一 个 节点 ,出 现在 这 个 节点 周围 的 其 他 节点 ,可 
以 通过 softmax 来 得 到 ,如 下 式 : 
S "s ; XO) 
其 中 ,v, Av, 指 的 是 节点 v 的 输入 和 输出 。 给 定 


Ww, | v,) 


"MEE 


Pig | v,) s: 


节点 岂可 以 得 到 词 的 概率 ,如 下 式 
exp (v; v',) " 
P(w.|v.)- SEE 4 
CIEL ume rA PO 
同样 ,可 以 得 出 标签 的 概率 ,如 下 式 : 
P(w, | c;) = ep Wut d 式 (5) 


E exp(v;. v'a) 
式 (4) 和 式 (5) 共 同 影响 节点 ww 的 向 量 表示 v^ 
而 v 通过 反 向 传播 影响 输入 w ,最 终 实现 了 将 节点 的 
拓扑 结构 ,文本 内 容 和 标签 三 者 信息 共同 融合 的 效果 。 
但 TriDNR 只 考虑 了 节点 之 间 的 拓扑 结构 信息 , 没 
有 将 节点 边 的 标签 信息 考虑 进去 。 笔 者 借鉴 Trans 系 
列 的 知识 表示 学 习 模型 中 的 TransE 模型 ” ,将 节点 边 
的 5 种 类 别 标签 Backward , Forward , Mixation , Likehood 
和 Inclusion 融入 知识 网 络 中 ,这 5 种 类 别 标签 揭示 了 
概念 之 间 的 推理 关系 。 quce 能 够 同时 获取 节 
点 表示 和 边 表示 ,通常 被 应 用 在 实例 链接 任务 中 。 由 
于 本 文 研 究 只 关注 将 关系 标签 映射 到 节点 表示 中 ,所 
以 只 将 节点 表示 与 从 节点 的 拓扑 结构 ,文本 语义 以 及 
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节点 标签 获得 的 节点 表示 进行 向 量 相 加 求 平均 ,最 后 
得 到 的 概念 节点 向 量 作为 知识 网 络 中 每 个 概念 的 向 量 
表示 。 
TransE 具体 算法 如 表 3 Bron : 
表 3 TransE 算法 

TransE 算法 训练 过 程 定义 如 下 : 

输入 :训练 集 S = sub ,rel,obj| S MS y ,学 习 率 和 

初始 化 :使 rel 和 sub 与 obj 在 ( -了 E “p s. V ERME — 


个 关系 
Loop : 


ec—e/ | lell 
S batet sample(S,b) 
T rater 9 
for (sub, rel, obj) e Sy: 
(sub! , rel, obj" ) «—S' (sub, rel, obj) 
O0 Thant TbachU | CCsub, rel ,obj) , (sub? ,rel,obj* ) | 


"i end for 

下 update embeddings Èr nVLY+lls+tr-ol l3- lls’ «r-o'112] 
| 

( Cr loop 

过 :sub 和 obj 的 节点 表示 v, 和 vo, DS. rel 的 节点 表示 。 


20» 融合 篇 章 结构 的 网 络 表 示 学 习 模型 
< 抽取 出 的 概念 及 概念 间 的 关系 隶属 于 各 个 章节 ， 


T RENI TIME 一 个 知识 网 络 子 图 。 当 把 篇 章 结 

梅 利 知识 网 络 结合 起 来 ,每 篇 科技 政策 文本 就 会 形成 
上 层 为 含有 篇 章 结 构 的 树 状 结构 ,底层 为 含有 概 
奖 系 网 络 的 知识 网 络 模型 。 其 中 文章 的 题目 作为 
Rb 节点 ,一 级 标题 作为 树 状 结构 的 第 一 层 ,而 每 个 一 
标题 下 的 二 级 标题 作为 树 状 结构 的 第 二 层 。 如 果 有 
更 骂 的 层次 ,以 此 类 推 (通常 不 超过 三 层 ) 。 每 个 小 标 
题 汞 包含 相应 的 概念 及 概念 之 间 的 关系 作为 底层 , 概 
念 能 够 跨 章节 连接 ,形成 网 络 数据 结构 。 

概念 与 概念 之 间 通 过 有 向 边 相连 ,如 同一 个 个 名 
子 ,章节 节点 可 以 看 作 是 一 个 包含 了 多 个 句子 的 文档 。 
基于 此 分 析 , 笔 者 将 篇 章节 点 分 为 两 类 :一 类 是 在 篇 章 
树 状 结构 底层 ,与 概念 直接 相连 的 篇 章 叶 子 结 点 ; 另 一 
类 是 其 他 上 层 篇 章节 点 。 对 于 叶子 节点 ,就 可 以 把 该 
节点 下 连接 的 概念 当 作词 ,概念 间 的 连 线 所 形成 的 随 
机 游 走 的 路 径 当 作 和 句子, 并 借助 于 Doc2vec 算法 计算 
篇 章节 点 的 网 络 表示 。 对 于 其 他 上 层 篇 章 结 点 ,采用 
同一 层 节 点 求 和 取 平 均 数 的 方法 , 层 层 计算 ,直到 取得 
根 节点 的 向 量 表示 。 

对 于 篇 章 叶 子 节点 表示 所 采用 的 Doc2vec 方法 的 
模型 如 图 8 所 示 。 其 中 ,w 是 概念 节点 ,v 是 概念 节点 
的 网 络 表示 , paragraph matrix 在 本 模型 中 代表 章节 节 
点 的 表示 。 然 后 章节 节点 与 概念 向 量 进行 连接 或 者 简 


ies 


单 相 加 来 对 下 一 个 概念 进行 预测 ,从 而 构建 浅 层 神经 
网 络 模型 ,最 后 通过 训练 模型 就 能 够 得 到 篇 章 叶 子 节 
点 的 表示 。 这 样 不 同 的 章节 就 可 以 根据 自己 相连 的 不 
bia 的 向 量 表示 ,但 是 不 同 章节 中 相同 的 
念 具 具有 相同 的 概念 表示 。 由 于 Doc2vec 算法 是 一 种 
pend 即 可 以 对 没有 标注 的 数据 进行 训练 ,所 
以 此 模型 能 快速 高 效 地 得 到 章节 节点 的 向 量 表示 。 


L] 
而 


EE » im 


图 8 篇 章 叶 子 节 点 表示 方法 模型 


Classifier 


Avarage/Concatenate 


Paragraph Matrix 


3 ”实验 设置 与 结果 分 析 


3.1 概念 关系 标 引 实验 
对 于 概念 识别 ,笔者 构建 了 以 词 向 量 作 为 输入 的 
BiLSTM + CRF 命名 实体 识别 深度 学 习 模 型 。 对 于 关 
系 识别 ,为 实现 从 高 层次 语义 挖掘 概念 间 的 语义 知识 ， 
笔者 设计 了 概念 实体 对 之 间 关 系 的 概念 类 别 、 概 念 相 
邻 词 .概念 间 词 的 词性 标注 、 两 概念 间 ee 4 
个 基本 特征 和 依存 句法 分 析 、 语 义 角色 分 析 两 个 语 
特征 ,并 训练 SVM 分 类 器 证 明 本 实验 选取 特征 
性 。 
3.1.1 BiLSTM-CRF 概念 提取 实验 

实验 数据 集 如 下 : 

BiLSTM-CRF 概念 提取 实验 使 用 的 数据 集 是 科技 
部 公开 发 布 的 近 20 年 的 科技 参考 , 共 1 000 篇 。 按 昭 
不 同 的 年 份 进行 混合 ,人 工 将 数据 集 分 为 10 份 ,使 用 
规则 并 辅 以 人 工 对 概念 进行 标注 其 中 的 一 份 , 共 4 340 
个 句子 ,4 790 个 不 重复 概念 ,采用 BIO 标注 每 个 字 后 ， 
有 将 近 23 万 个 字符 标签 ,将 其 以 8:1:1 分 为 训练 语 
料 测试 语 料 、 验 证 语 料 。 

实验 结果 与 分 析 如 下 : 

笔者 将 概念 抽取 问题 转化 为 序列 标注 问题 ,为 了 
验证 本 文 使 用 方法 的 有 效 性 ,实验 中 对 比 了 传统 的 
CRF 方法 、BiLSTM 方法 以 及 BiLSTM-CRF 3 种 使 用 较 
多 的 概念 抽取 方法 ,由 于 涉及 的 概念 类 别 较 多 ,共有 
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15 个 类 ,所 以 最 终结 果 对 所 有 类 的 结果 取 平 均 数 。 结 


果 如 表 4 Bron: 
表 4 概念 抽取 结果 对 比 
模型 Precision Recall FI 
TextRank + 句 式 32.34 31.05 31.68 
CRF 55. 67 50.37 53.42 
BiLSTM 63.97 52.02 57.38 
BiLSTM 4 CRF 70. 89 63.59 67.32 


由 表 4 可 以 看 出 ,BiLSTM 概念 抽取 方法 的 性 能 
优 于 传统 的 机 器 学 习 方 法 ,而 在 BiLSTM 模型 中 加 入 
CRF 层 能 够 提升 概念 抽取 的 效果 。 对 各 个 类 别 识别 结 
果 进 行 分 析 ,Organization 概念 类 别 识别 的 效果 最 好 ,能 
达到 80. 25% 的 准确 率 。 但 是 ,其 他 如 Attribute 或 者 
Sepwice 由 于 在 训练 数据 集中 所 占 比 例 较 少 ,最 终 识别 


效果 较 差 。 
3.1.2. SVM 概念 关系 识别 实验 
实验 数据 集 如 下 : 


SVM 概念 关系 实验 人 工 标注 了 100 篇 概念 关系 
(分 为 推进 关系 .融合 关系 .阻碍 关系 .包含 关系 和 无 关 
系 , 共 5 种 关系 ) , 共 1 980 条 关系 作为 SVM 的 初始 训 
练 样本 ,其 中 的 80% 作为 训练 语 料 , 剩 下 的 2096 作为 
测试 语 料 ,未 标注 的 候选 集 是 从 剩 下 900 篇 的 未 标注 
概念 中 产生 ,关系 数 约 为 22 500 条 关系 。 笔 者 采用 主 
动 学 习 的 方法 ,每 次 抽取 200 个 对 分 类 器 性 能 影响 最 
大 的 样本 进行 分 类 预测 ,校对 后 分 类 正确 的 集合 将 被 
加 入 到 训练 集中 进行 再 次 训练 。 概 念 关系 标 引 结果 如 
9 所 示 : 


"sentence": "此 外 ， 将 建立 各 领域 的 \" 纳 米 融 合 创新 联盟 \"， 促 进 现 有 支柱 产业 与 纳米 技术 的 融合 及 产业 化 。"， 


图 9 概念 关系 标 引 结果 


E 
co "concept": [ 

"id": "T93", 
T " "纳米 技术 "， 
e ": "Technology", 

^; "1677", 
e "end": "1681" 
+ 
e 
Co 
CN 
je, 
CN 
LEN I 
> ": "Organization", 
E] M": "30589", 
» " "end": "1666" 
a l; 
"relationship": [ 
1 

E "id": "R42", 

"wordl": "T187", 
£ "word2": "T94", 
Q "relationtype": "Forward" 

实验 结果 与 分 析 如 下 : 


表 5 是 针对 两 组 不 同 特征 ,SVM 分 类 器 在 不 同 
关系 类 别 上 的 分 类 效果 。 其 中 ,第 一 组 实验 选取 基 
本 特征 ,第 二 组 实验 选用 了 基础 特征 和 句法 语义 特 
征 (依存 句法 分 析 和 语义 角色 标注 ) 。 基 本 特征 提取 
的 是 命名 实体 间 的 词 间 关系 ,缺少 句 级 的 语法 特征 
信息 ,但 句 内 关系 具有 较 强 的 组 织 关联 性 ,对 挖掘 深 
层 语义 信息 具有 辅助 意义 。 从 实验 结果 也 可 以 看 
出 ,第 二 组 实验 使 用 句法 语义 特征 后 ,实体 关系 抽取 
的 效果 优 于 第 一 组 实验 ,证 明了 使 用 句法 语义 特征 
的 有 效 性 。 


A5 SVM 关系 抽 实验 结果 统计 


特征 类 型 分 

基本 特征 推进 关系 60. 49 47.89 53.31 

融合 关系 67.55 63.29 65.42 

阻碍 关系 55.67 48.67 52.10 

包含 关系 66.48 63.66 65.04 

无 关系 71.38 73.21 72.28 

整体 64.31 59.34 61.83 

基本 特征 + 句法 语义 特征 ”推进 关系 63. 16 53.98 58.21 
融合 关系 73.16 70.80 72.01 

阻碍 关系 63.12 66.53 64.78 


3 Precision Recall F1 


包含 关系 70. 19 67.54 68.84 
无 关系 74.03 78.61 76.25 
整体 68.73 67.51 68.02 
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3.2 知识 网 络 构建 及 网 络 表 示 实 验 

笔者 对 TiDNR 网 络 表示 学 习 模 型 进行 改进 ,采用 
能 够 融合 网 络 节点 拓扑 结构 .节点 内 容 、 节 点 标签 以 及 
节点 之 间 推 理 信息 4 个 方面 的 信息 的 网 络 表示 学 习 模 
型 ,从 不 同方 面 弥补 节点 表示 不 全 面 的 问题 。 对 于 融 
合 篇 章 结 构 的 知识 网 络 ,笔者 在 简单 向 量 相 加 的 方法 
的 基础 上 进行 改进 ,采用 Doc2vec 算法 来 表示 篇 章节 
点 ,最 后 通过 TextRank 算法 对 篇 章节 点 重要 性 进行 排 
序 ,从 而 验证 利用 笔者 提出 的 方法 生成 的 篇 音节 点 向 
量 表示 的 有 效 性 。 
3.2.1. 结合 推理 知识 的 TriDNR 网 络 表示 

实验 数据 集 如 下 : 

得 到 BiLSTM-CRF 训练 模型 之 后 , 按 次 序 从 其 他 9 
份 中 选 1 份 进行 概念 预测 ,之 后 进行 人 工 校对 ,最 后 将 
1 QOD 篇 中 将 近 45 000 个 的 句子 进行 概念 标 引 , 将 其 中 
其 有 关系 的 实体 对 作为 语 料 , 共 约 35 000 个 不 重复 概 
ADEN 28 000 多 条 关系 ,融合 成 大 概念 网 络 。 
实验 结果 与 分 析 如 下 : 
< 十 为 了 验证 本 文 所 采用 方法 的 有 效 性 ,实验 中 将 其 他 
要 三 点 表示 方法 与 本 文 使 用 方 作对 比 。 为 了 公平 起 
y. nn 同方 法 的 表示 维度 都 设置 为 300 ,由 于 想 要 
每 BB 慨 念 节点 涵盖 的 信息 不 仅仅 局 限于 之 间 近 邻 的 节 
战 六 以 使 控制 深度 优先 搜索 的 参数 p 大 于 1。 表 6 是 
大潮 方法 之 间 的 对 比 结果 ,选取 了 节点 表示 一 些 常 用 的 
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方法 ,其 中 DeepWalk ,Node2ve 只 是 考虑 节点 的 拓扑 结 
构 ,Doc2vec 只 考虑 节点 的 文本 信息 和 标签 信息 ,DW + 
Doc2vec 是 将 拓扑 结构 信息 .文本 内 容 信 息 和 标签 信息 的 
表示 上 相 加 ，TriDNR 是 将 三 者 信息 共同 训练 ,笔者 提出 
的 方法 则 是 将 节点 的 知识 推理 信息 融合 到 节点 表示 中 。 

表 6 各 类 概念 节点 表示 方法 对 比 实验 结果 


DW + 


Doc2vec 


Wp | DeepWalk Doc2vec Node2vee ”TriDNR ”本 文 方法 


10 0.243 0.275 0.341 0.312 0.476 0.512 
30 0.315 0.361 0.407 0.386 0. 553 0. 593 
50 0.394 0.428 0.478 0. 443 0.618 0.649 
70 0.431 0.452 0.501 0.492 0.642 0. 683 


通过 实验 结果 可 以 得 出 ,只 考虑 概念 节点 的 拓扑 
结果 或 者 节点 文本 内 容 的 Fl 值 最 低 ,尤其 在 训练 集 较 
少 的 情况 下 , 当 将 二 者 结合 后 ,分 类 效果 有 较 高 的 提 
升 。 从 结合 方法 来 看 ,通过 模型 训练 的 方法 比 直 接 将 
两 部 分 信息 相 加 更 有 效 。 而 笔者 提出 的 方法 增加 了 知 
识 推理 模型 ,所 以 效果 较 前 几 种 都 有 所 提升 。 

利用 网 络 表示 学 习 技术 将 知识 网 络 的 概念 节点 映 
射 成 了 一 个 300 维 的 向 量 表 , 通 过 该 向 量 表 ,就 能 够 将 
知识 网 络 的 拓扑 结构 信息 .语义 信息 ,节点 标签 信息 以 
及 节点 之 间 的 推理 信息 都 融入 到 节点 表示 中 ,最 终 被 
应 用 在 其 他 机 器 学 习 或 深度 学 习 模 型 中 ,其 可 视 化 效 
果 如 图 10 所 示 : 
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图 10 结合 推理 信息 的 TriDNR 可 视 化 
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3.2.2 融合 篇 章 结构 的 网 络 表示 学 习 实验 

实验 数据 集 如 下 : 

在 文本 知识 网 络 构建 实验 中 ,以 “德国 工业 4. 07 
为 主题 ,挑选 了 10 篇 相关 文本 ,将 音节 节点 的 表示 作 
为 输入 ,通过 实验 中 对 章节 的 排序 结果 与 原文 的 章节 
的 排序 进行 比较 ,从 而 证 明 本 文 方法 的 有 效 性 。 
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(D0 笔者 在 简单 向 量 相 加 的 方法 的 基础 上 进行 改进 ， 
HI Doc2vec 算法 来 表示 篇 章节 点 ,最 后 通过 Tex- 
Rk 算法 对 篇 章节 点 重要 性 进行 排序 。 以 德国 发 布 
的 《 宗 施 “工业 4.0" 攻 略 的 建议 ) 为 例 ,实验 输出 了 前 
8 个 排序 最 高 的 章节 节点 ,图 12(a) 是 只 用 了 TextRank 
算法 的 排序 结果 ,图 12 (b) 是 采用 了 概念 节点 平均 值 
求 和 的 方法 得 到 章节 节点 表示 ,图 12(c) 是 通过 本 文 
方法 来 表示 音节 节点 的 排序 结果 。 

融合 篇 章 结 构 的 文本 知识 网 络 的 有 效 性 可 通过 单 
篇 文本 篇 章 的 重要 性 排序 进行 证 明 ,而 篇 章 的 重要 性 
可 以 由 两 个 指标 来 确定 :一 个 是 篇 章 中 包含 的 内 容 , 即 
包含 的 概念 越 丰 富 ,那么 这 个 章节 就 越 重 要 ; 另 一 个 是 
篇 章 所 处 的 位 置 ,通常 认为 题目 比 一 级 目录 重要 ,二 级 

目录 比 三 级 目录 重要 ,也 就 是 说 在 树 状 结构 中 , 相 较 于 
下 层 篇 章节 点 ,上 层 篇 章节 点 更 具 概 括 性 ,包含 的 重要 
概念 更 多 ,所 处 的 位 置 更 加 重要 。 从 实验 结果 可 以 发 
现 ,使 用 本 文 方法 得 到 的 章节 节点 排序 结果 ,前 3 个 结 
果 均 为 一 级 标题 , 优 于 其 他 两 种 方法 ,而 采用 概念 节点 


实验 结果 与 分 析 如 下 : 

11 是 融合 篇 章 结 构 的 知识 网 络 示 例 图 ,从 图 中 
可 以 明显 地 看 到 树 状 篇 章 将 知识 网 络 组 织 起 来 。 不 同 
章节 下 的 相同 的 概念 进行 合并 ,不 同 概念 相互 连接 ,最 
终 形成 树 状 结构 与 网 络 结构 相 结合 的 融合 篇 章 结 构 的 
知识 网 络 模 型 。 
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带 篇 章 的 知识 网 络 可 视 化 


0.042076005607176681 2， 愿 景 : 工业 4.8 作 为 智能 、 网 络 化 世界 的 一 部 分 
0.031228206896693222 2.1 塑造 工业 4,6 愿 景 
0.031204141470405693 2.6 工业 4.9 之 路 


0.030919204916247241 3， 双 重 战略 : 成 为 领先 的 市 场 和 供应 商 
0.030919204916247241 5.4 安保 是 工业 4.8 成 功 至 关 重要 的 因素 
0.030652227184829544 5.3 为 工业 提供 一 个 全 面 宽敞 的 基础 设施 
0.030652227184829543 3.3.3 纵向 集成 和 网 络 化 制造 系统 
0.030519294657362788 2.2 在 工业 4.0 下 未 来 会 是 什么 样子 


(a) TextRank 节点 排序 结果 


0.053385834857927576 2. BR: 工业 4.,0 作 为 智能 、 网 络 化 世界 的 一 部 分 
应 


领域 
0.04426482468843093 5.5 数字 化 工业 时 代 工 作 的 组 织 和 设计 
0.04374719956100772 2.6 工业 4.0 之 路 
0.04302327508521478 3.3.3 纵向 集成 和 网 络 化 制造 系统 
0.04140968456483198 5.4 安保 是 工业 4.8 成 功 至 关 重 要 的 因素 


(b) 概念 向 量 相 加 排序 结果 


0.053179667466278425 2， 愿 景 : 工业 4.0 作 为 智能 、 网 络 化 世界 的 一 部 分 
0.04240042462095923 3， 双 重 战略 : 成 为 领先 的 市 场 和 供应 商 


0.040317800639493085 2.6 工业 4.0 之 路 
0.040177119269556284 3.3.3 纵向 集成 和 网 络 化 制造 系统 


(0) 本 文 方法 排序 结果 


12 不 同方 法 章节 节点 重要 性 排序 


平均 值 求 和 的 方法 优 于 只 用 TextRank 的 方法 。 本 文 
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吉 构 的 文本 知识 网 络 构 建 []]. 图 书 情报 工作 ,2021 ,65(21):118 - 130. 


使 用 的 方法 没有 把 第 四 章 和 第 六 章 的 节点 排名 靠 前 ， 
原因 是 这 两 个 章节 下 面 没 有 二 级 标题 ,篇幅 较 短 ,所 以 
能 够 提取 的 概念 并 不 多 。 


4 结语 


E nnn 
与 关系 标 引 技术 和 融合 推理 知识 和 篇 章 结构 的 知识 网 
络 构建 ,实现 对 文本 与 向 量 空间 的 映射 ,完成 了 语义 信 
iode c ubi a 

结构 和 语义 信息 。 笔 者 采用 BILSTM + CRF 深度 学 
m o 体 对 之 间 关 系 
特征 来 训练 SVM 分 类 器 。 实 验 发 现 ,深层 句法 分 析 特 
征 (依存 句法 和 语义 角色 ) 能 够 提高 部 分 关系 类 别 识 
别 的 准确 率 。 笔 者 还 采用 了 主动 学 习 的 方法 ,能 够 有 
泛 芭 将 科技 政策 文本 中 的 概念 提取 出 来 并 为 概念 实体 
对 灼 引 关系 ,大 大 降低 了 人 工 标 引 的 工作 量 。 

在 科 技 政 策 文本 的 概念 与 关系 标 引 的 基础 上 ,和 
基部 先 采 用 了 融合 节点 语义 ,拓扑 结构 以 及 标签 信息 
的 较 络 表示 模型 ,并 在 此 基础 上 开创 性 地 提出 结合 知 
训 扒 理 模型 的 网 络 表示 学 习 模 型 改进 方法 和 带 篇 章 结 
P—— 节点 表示 ,通过 可 视 化 和 重 
到 二 点 排序 实验 验证 了 笔者 提 提出 的 文本 网 络 表 示 方 法 
的 奏效 性 ,生成 的 向 量 网 络 可 有 效 服 务 于 文本 挖掘 、 信 
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Abstract: [ Purpose/significance | Text vectorization is a necessary pre-processing process in the fields of text 
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«mining , information retrieval, sentiment analysis, etc. It is an urgent problem to make node vectors contain rich and 
Céffective semantic and structural information. | Method/process | At first, this paper analyzed the text characteristic 
science and technology policy. According to the classification system of the concept and the relationship between 
he concepts, this paper used BiLSTM - CRF algorithm and SVM respectively to extract index the concepts and their 
Eslations automatically. Meanwhile, the model integrated basic characteristics and syntactic semantic features in fea- 
"nde engineering, leading to a boost in recognition accuracy and efficiency. This article also put forward the concept 
(Wowledge network combining reasoning knowledge and the knowledge network construction method of furtherly in- 
stegrating discourse structure. | Result/conclusion | Based on this knowledge network model, this paper implements a 
work representation learning model that can integrate node semantics, topology structure and category label infor- 
mation. lt can fully exploit and represent text semantic and structural information, and through the visualization and 
experiment to verify the effectiveness of the proposed method. 


Keywords: named entity recognition relationship extraction neural network representation learning dis- 
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